N-gramas sintácticos no-continuos

نویسنده

  • Grigori Sidorov
چکیده

In this paper, we present the concept of noncontinuous syntactic n-grams. In our previous works we introduced the general concept of syntactic n-grams, i.e., n-grams that are constructed by following paths in syntactic trees. Their great advantage is that they allow introducing of the merely linguistic (syntactic) information into machine learning methods. Certain disadvantage is that previous parsing is required. We also proved that their application in the authorship attribution task gives better results than using traditional n-grams. Still, in those works we considered only continuous syntactic n-grams, i.e., the paths in syntactic trees are not allowed to have bifurcations. In this paper, we propose to remove this limitation, so we consider all sub-trees of length n of a syntactic tree as non-continuous syntactic n-grams. Note that continuous syntactic n-grams are the particular case of non-continuous syntactic n-grams. Further research should show which n-grams are more useful and in which NLP tasks. We also propose a formal manner of writing down (representing) non-continuous syntactic n-grams using parenthesis and commas, for example, “a b [c [d, e], f]”. In this paper, we also present examples of construction of non-continuous syntactic n-grams on the basis of the syntactic tree of the FreeLing and the Stanford parser.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Clasificación de servicios Web mediante una red neuronal artificial usando n-gramas de palabras

Resumen. Este artículo presenta un enfoque basado en n-gramas de palabras para la clasificación automática de servicios Web utilizando una red neuronal artificial de tipo perceptrón multicapa. Los servicios Web contienen información de gran utilidad para lograr una clasificación basada en la funcionalidad del mismo. El enfoque se basa en n-gramas de palabras extraídas de la descripción del serv...

متن کامل

Técnicas para el manejo de CSPs no binarios

Hoy en d́ıa muchos problemas de la vida real se pueden modelar como problemas de satisfacción de restricciones (CSPs) no binarias (o n−arias). Por ejemplo en áreas tales como inteligencia artificial, investigación operativa, bases de datos y sistemas expertos, la importancia de los CSPs no binarios se está incrementando paulatinamente. Sin embargo la mayoŕıa de los investigadores centran su aten...

متن کامل

Geocodificação de Documentos Textuais com Classificadores Hierárquicos Baseados em Modelos de Linguagem

A maioria dos documentos textuais, produzidos no contexto das mais diversas aplicações, encontra-se relacionado com algum tipo de contexto geográfico. Contudo, os métodos tradicionais para a prospecção de informação em colecções de documentos vêem os textos como conjuntos de termos, ignorando outros aspectos. Mais recentemente, a recuperação de informação com suporte ao contexto geográfico tem ...

متن کامل

Algoritmo de Decodificación de Traducción Automática Estocástica basado en N-gramas

In this paper we describe MARIE, an N -gram-based stochastic machine translation decoder. It is implemented using a beam search strategy, with distortion (or reordering) capabilities. The underlying translation model is based on an N gram approach, extended to introduce reordering at the phrase level. The search graph structure is designed to perform very accurate comparisons, what allows for a...

متن کامل

Detectando la prioridad de contenidos generados en Twitter por medio de n-gramas de palabras

Resumen. En la actualidad, el uso de las redes sociales ha revolucionado la forma en que los usuarios intercambian ideas, opiniones e información. Gracias a este cambio de paradigma en la forma de interactuar entre los usuarios, las grandes compañ́ıas y personajes públicos han comenzado a prestar particular interés a la opinión generada respecto a sus productos y/o servicios, actos y/o eventos d...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:
  • Polibits

دوره 48  شماره 

صفحات  -

تاریخ انتشار 2013